HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
自己教師学習による音声表現学習モデルの最新版 HuBERT、控え目に言ってヤバいのでは・・。
・面倒なVQ-VAEではなくk-meansで学習した離散コードを予測するだけ
・音声「だけ」から言語生成も可能 (dGSLM)
・音声処理ベンチマークSUPERBで首位を総ナメ
音声では「とりあえず HuBERT」が主流になる予感 pic.twitter.com/pKuk5DZHW8
— ステート・オブ・AI ガイド (@stateofai_ja) September 14, 2021
論文
GSLM: https://t.co/5mL6CJv3VB
SUPERB: https://t.co/X91IL6wdO7
HuBERT: https://t.co/cY5Ut3lvAR
— ステート・オブ・AI ガイド (@stateofai_ja) September 14, 2021
「HuBERT のここがスゴい」もう一個あった
音声をたった 365 bps で超高圧縮できるコーデックとして利用可能、ほとんど劣化なし。
論文: https://t.co/unB7lwkBNK
デモ: https://t.co/tgPKUsogYS
— ステート・オブ・AI ガイド (@stateofai_ja) September 15, 2021
#自己教師あり学習
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
Submitted on 14 Jun 2021
https://arxiv.org/abs/2106.07447